AIの安全性に関する中核的な見解: いつ、なぜ、何を、どのように
https://scrapbox.io/files/66a84837b0a76f001cd18d82.png
概要
私たちがAnthropicを設立したのは、AIの影響が産業革命や科学革命に匹敵する可能性があると信じているからですが、それがうまくいくかどうかは確信が持てません。また、このレベルの影響が近い将来、おそらく今後10年のうちに現れ始める可能性があると考えています。
この見方は、ありえないあるいは誇大に聞こえるかもしれません。それを疑う十分な理由があります。まず、「私たちが取り組んでいることは、歴史上最大の開発の一つになるかもしれない」と言った人のほとんどすべてが間違っており、しばしば笑止なほどでした。それにもかかわらず、私たちは、急速なAIの進歩が変革的なAIシステムにつながる世界に真剣に備えるべき十分な証拠があると信じています。
Anthropicでは、「言うよりも示せ」をモットーにしており、AI界全体にとって広く価値があると信じる安全性重視の研究を着実に発表することに注力してきました。今回これを書いているのは、AIの進歩に気づく人が増えてきたため、この話題に関する私たち自身の見解を表明し、戦略と目標を説明するのにタイムリーだと感じたからです。要するに、私たちはAI安全性研究が緊急に重要であり、幅広い公的および民間の関係者によって支援されるべきだと信じています。
したがって、この投稿では、なぜ私たちがこれらすべてを信じているのかを要約します:なぜ私たちが非常に急速なAIの進歩と、AIからの非常に大きな影響を予想しているのか、そしてそれがどのようにしてAIの安全性に関する懸念につながったのかについてです。その後、AIの安全性研究に対する私たち自身のアプローチと、その背後にある理由の一部を簡単に要約します。これを書くことで、AIの安全性とAIの進歩についてのより広範な議論に貢献できることを望んでいます。
この投稿の主なポイントを高レベルで要約すると:
AIは非常に大きな影響を与える可能性があり、おそらく今後10年のうちに
AIの急速かつ継続的な進歩は、AIシステムの訓練に使用される計算量の指数関数的増加の予測可能な結果です。なぜなら、「スケーリング則」に関する研究により、より多くの計算が能力の全般的な向上につながることが実証されているからです。単純な外挿によると、AIシステムは今後10年ではるかに能力が高くなり、おそらくほとんどの知的作業で人間レベルの性能に匹敵するか、それを超える可能性があります。AIの進歩は遅くなったり停止したりする可能性がありますが、証拠は進歩が続く可能性が高いことを示唆しています。 システムを堅牢に良好に動作させる訓練方法がわかっていない
これまでのところ、非常に強力なAIシステムを堅牢に役立ち、正直で、無害になるように訓練する方法を誰も知りません。
さらに、急速なAIの進歩は社会を混乱させ、企業や国家が信頼できないAIシステムを展開する競争的な競争を引き起こす可能性があります。
その結果は破滅的になる可能性があります。AIシステムが戦略的に危険な目標を追求するか、より無害な間違いをハイステークスな状況で犯すかのいずれかです。
hiroya_iizuka.icon 怖いね...
私たちは多面的で実証的なアプローチによるAIの安全性に最も楽観的
私たちは、確実に安全なシステムを構築することを目標として、さまざまな研究方向を追求しています。現在、最も興奮しているのは、監督のスケーリング、機械的解釈可能性、プロセス指向学習、AIシステムがどのように学習し一般化するかの理解と評価です。
私たちの主要な目標の1つは、この安全性研究を差別的に加速させ、安全性の課題が簡単に対処できるシナリオから、安全なシステムの作成が非常に困難なシナリオまで、幅広いシナリオをカバーしようとする安全性研究のプロファイルを開発することです。
急速なAI進歩に関する私たちの大まかな見解
AIの性能における予測可能な改善につながる主な3つの要素は、訓練データ、計算、改良されたアルゴリズムです。2010年代半ば、私たちの一部は、より大きなAIシステムが一貫してよりスマートであることに気づき、AIの性能における最も重要な要素はAIの訓練計算の総予算かもしれないと理論化しました。これをグラフ化したとき、最大のモデルに投入される計算量が年間10倍で成長していること(ムーアの法則の7倍速い倍増時間)が明らかになりました。
https://scrapbox.io/files/66aae7ae7f72e7001d74da63.png
2019年、後にAnthropicの創設チームとなるメンバーの何人かが、AIのスケーリング則を開発することでこのアイデアを精緻化し、より大きくし、より多くのデータで訓練することで、予測可能な方法でAIをよりスマートにできることを実証しました。これらの結果に部分的に正当化され、このチームは1730億パラメータを超える、おそらく最初の現代的な「大規模」言語モデルであるGPT-3の訓練を主導しました。
スケーリング則の発見以来、Anthropicの多くのメンバーは、非常に急速なAIの進歩がかなり可能性が高いと信じてきました。しかし、2019年当時は、マルチモダリティ、論理的推論、学習速度、タスク間の転移学習、長期記憶が、AIの進歩を遅らせたり停止させたりする「壁」である可能性がありました。それ以来の数年間で、マルチモダリティや論理的推論などのこれらの「壁」のいくつかが崩れました。これを考えると、私たちの多くは、急速なAIの進歩が停滞または横ばいになるのではなく、継続するという確信をますます強めています。AIシステムは現在、多くの種類のタスクで人間レベルの性能に近づいています。しかし、これらのシステムの訓練コストは、ハッブル宇宙望遠鏡や大型ハドロン衝突型加速器のような「ビッグサイエンス」プロジェクトよりもはるかに少ないままです。つまり、さらなる成長の余地が大きくあります。
人々は、指数関数的成長をその初期段階で認識し、認めることが苦手な傾向があります。AIにおける急速な進歩が見られているにもかかわらず、この局所的な進歩が例外であって規則ではないはずだと仮定し、物事がすぐに正常に戻るだろうと考える傾向があります。しかし、もし私たちが正しければ、現在のAIの急速な進歩の感覚は、AIシステムが私たち自身の能力を超える幅広い能力を持つ前に終わらない可能性があります。さらに、高度なAIをAI研究に使用することからのフィードバックループにより、この移行が特に急速になる可能性があります。私たちは、AI研究者をより生産的にするコードモデルの開発や、憲法AIが人間のフィードバックへの依存を減らしているなど、このプロセスの始まりをすでに目にしています。
これらのいずれかが正しければ、近い将来、ほとんどまたはすべての知識労働が自動化可能になる可能性があります。これは社会に深遠な影響を与え、また他の技術の進歩の速度も変える可能性が高いでしょう(AlphaFoldのようなシステムが今日すでに生物学を加速させているのは、その早期の例です)。将来のAIシステムがどのような形を取るか - 例えば、独立して行動できるのか、それとも単に人間のための情報を生成するだけなのか - はまだ決定されていません。それでも、これがどれほど重要な瞬間になる可能性があるかを過小評価するのは難しいです。AIの進歩がこの移行をより管理しやすくするために十分に遅くなり、数年や数十年ではなく数世紀にわたって起こることを望むかもしれませんが、私たちは希望するものではなく、予想する結果に備えなければなりません。
もちろん、この全体像が完全に間違っている可能性があります。Anthropicでは、それがそうである可能性が高いと考える傾向がありますが、おそらく私たちはAI開発への取り組みによってバイアスがかかっているでしょう。たとえそうだとしても、この見方は十分にもっともらしいので、自信を持って却下することはできないと考えています。潜在的に重大な意味を考えると、AI企業、政策立案者、市民社会機関は、変革的なAIへの対処方法について、研究と計画に非常に真剣な努力を払うべきだと信じています。
どのような安全性リスク?
上記の見解を受け入れる用意があれば、AIが私たちの安全と安全保障にリスクをもたらす可能性があると主張するのはそれほど難しくありません。懸念すべき常識的な理由が2つあります。
第一に、システムがその設計者と同じくらい知的で環境を認識し始めるとき、安全で信頼性が高く、操縦可能なシステムを構築するのは難しい可能性があります。例えを使うと、チェスのグランドマスターが初心者の悪手を検出するのは簡単ですが、初心者がグランドマスターの悪手を検出するのは非常に難しいです。
hiroya_iizuka.icon わかりやすい例え。AIの方が人間より優秀になるから...
人間の専門家よりもはるかに有能なAIシステムを構築したが、それが私たちの最善の利益と対立する目標を追求する場合、その結果は悲惨なものになる可能性があります。これが技術的な整合性の問題です。
第二に、急速なAIの進歩は非常に破壊的であり、雇用、マクロ経済、国内および国家間の権力構造を変化させるでしょう。これらの混乱は、それ自体が破滅的である可能性があり、また、慎重で思慮深い方法でAIシステムを構築することをより困難にする可能性があり、さらなる混乱とさらに多くのAIの問題につながる可能性があります。
私たちは、AIの進歩が急速である場合、これら2つのリスク源が非常に重大になると考えています。これらのリスクはまた、予想が難しい多くの方法で互いに影響し合います。おそらく後知恵で見れば、私たちが間違っていたと判断し、1つまたは両方が問題にならないか、簡単に対処できると判断するかもしれません。それにもかかわらず、「間違える」ことが破滅的になる可能性があるため、慎重を期す必要があると信じています。
もちろん、私たちはすでにAIの行動が創造者の意図から逸脱する様々な方法に遭遇しています。これには、有毒性、偏見、信頼性の欠如、不誠実さ、そして最近では追従や力への欲求の表明が含まれます。AIシステムが普及し、より強力になるにつれて、これらの問題の重要性が増し、その一部が人間レベルのAI以上で遭遇する問題を代表する可能性があると予想しています。
しかし、AI安全性の分野では、予測可能な展開と驚くべき展開の混合を予想しています。現代のAIシステムで遭遇したすべての問題を十分に解決したとしても、将来の問題がすべて同じ方法で解決できると安易に仮定したくありません。怖い、思索的な問題の中には、AIシステムが世界における自分の位置を理解し、人々を成功裏に欺き、人間が理解しない戦略を開発するほど賢くなってはじめて現れる可能性があるものもあります。AIが非常に高度になったときにのみ発生する可能性のある心配な問題は多くあります。
私たちのアプローチ: AI安全性における経験主義
研究対象との密接な接触なしに、科学と工学で急速な進歩を遂げるのは難しいと私たちは信じています。「真実の源」に対して常に反復することは、通常、科学の進歩に不可欠です。私たちのAI安全性、つまりAIの訓練と評価から生じますが - が主要な真実の源です。
これは理論的または概念的研究がAI安全性において場所がないと考えているわけではありませんが、経験的に基づいた安全性研究が最も関連性と影響力を持つと信じています。可能なAIシステム、可能な安全性の失敗、可能な安全性技術の空間は大きく、肘掛け椅子だけで横断するのは困難です。すべての変数を考慮することの難しさを考えると、決して発生しない問題に過度にアンカリングしたり、実際に発生する大きな問題を見逃したりするのは簡単でしょう。良い経験的研究は、しばしばより良い理論的および概念的な仕事を可能にします。
同様に、安全性の問題を検出し緩和する方法は、事前に計画するのが非常に難しく、反復的な開発が必要になると私たちは信じています。これを考えると、「計画は不可欠だが、計画は無用である」と信じる傾向があります。ある時点で研究の次のステップのための計画を心に描いているかもしれませんが、これらの計画にはほとんど執着がなく、むしろ短期的な賭けのようなものであり、より多くを学ぶにつれて変更する準備ができています。これは明らかに、現在の研究路線が成功することを保証できないことを意味しますが、これはすべての研究プログラムにとって生活の事実です。
フロンティアモデルの経験的安全における役割
Anthropicが組織として存在する主な理由は、「フロンティア」AIシステムで安全性研究を行う必要があると信じているからです。これには、大規模なモデルで作業でき、かつ安全性を優先する機関が必要です。
それ自体では、経験主義は必ずしもフロンティア安全性の必要性を意味しません。経験的安全性研究が小規模で能力の低いモデルで効果的に行える状況を想像することができます。しかし、私たちはそれが私たちがいる状況だとは信じていません。最も基本的なレベルでは、これは大規模なモデルが小規模なモデルとは質的に異なるからです(突然の予測不可能な変化を含む)。しかし、スケールは安全性とより直接的な方法でも関連しています:
私たちの最も深刻な安全性の懸念の多くは、人間に近いレベルのシステムでのみ発生する可能性があり、そのようなAIにアクセスせずにこれらの問題で進展を遂げるのは困難または不可能です。
Constitutional AIや討論のような多くの安全性手法は、大規模なモデルでのみ機能します - 小規模なモデルで作業することは、これらの手法を探求し証明することを不可能にします。 私たちの懸念は将来のモデルの安全性に焦点を当てているため、モデルのスケールに応じて安全性手法と特性がどのように変化するかを理解する必要があります。
将来の大規模モデルが非常に危険であることが判明した場合、これがそうであることを説得力のある証拠を開発することが不可欠です。私たちは、これが大規模なモデルを使用することでのみ可能であると予想しています。
残念ながら、経験的安全性研究に大規模なモデルが必要な場合、それは困難なトレードオフに直面せざるを得ません。安全性を動機とした研究が危険な技術の展開を加速させるシナリオを避けるためにあらゆる努力をしなければなりません。しかし、過度の慎重さによって、最も安全性を意識した研究努力が常にフロンティアからはるかに遅れたシステムにのみ取り組むことになり、それによって私たちが重要だと考える研究を劇的に遅らせることもできません。さらに、実際には、安全性研究を行うだけでは十分ではなく、最新の安全性研究をできるだけ迅速に実際のシステムに統合するための制度的知識を持つ組織を構築することも重要だと考えています。
これらのトレードオフを責任を持って対処することはバランスの取れた行為であり、これらの懸念は組織としての戦略的決定を行う上で中心的なものです。研究 - 安全性、能力、政策にわたる - に加えて、これらの懸念は企業統治、採用、展開、セキュリティ、パートナーシップへのアプローチを推進します。近い将来、安全性基準を満たすことができる場合にのみ特定の能力閾値を超えるモデルを開発するという外部に明確なコミットメントを行い、独立した外部組織がモデルの能力と安全性の両方を評価することを許可する計画もあります。
AI安全性へのポートフォリオアプローチ
安全性を気にかける研究者の中には、AIリスクの性質に関する強い意見に動機づけられている人もいます。私たちの経験では、近い将来のAIシステムの行動と特性を予測することさえ非常に困難です。将来のシステムの安全性について先験的な予測を行うことはさらに難しいように思えます。強い立場を取るのではなく、幅広いシナリオが可能だと私たちは信じています。
特に重要な不確実性の次元の1つは、広く安全で人間に対してほとんどリスクをもたらさない高度なAIシステムを開発することがどれほど困難になるかということです。そのようなシステムの開発は、非常に簡単から不可能までのスペクトル上のどこかにある可能性があります。このスペクトルを、非常に異なる意味を持つ3つのシナリオに分けてみましょう:
楽観的シナリオ: 安全性の失敗の結果として高度なAIから壊滅的なリスクがある可能性はほとんどありません。人間のフィードバックからの強化学習(RLHF)や憲法AI(CAI)など、すでに開発された安全性技術は、すでにアラインメントにほぼ十分です。AIからの主なリスクは、有毒性や意図的な誤用など、今日直面している問題の外挿、および広範な自動化や国際的な力学の変化などによる潜在的な危害です - これにはAIラボや学界や市民社会機関などの第三者が、危害を最小限に抑えるために大量の研究を行う必要があります。
中間的シナリオ: 壊滅的なリスクは、高度なAI開発の可能性のある、あるいは見込みのある結果です。これに対抗するには、実質的な科学的および工学的努力が必要ですが、十分に集中した作業でそれを達成できます。
悲観的シナリオ: AI安全性は本質的に解決不可能な問題です - 私たち自身よりも広く知的に能力のあるシステムに価値観を制御したり指示したりすることができないという経験的事実です - したがって、非常に高度なAIシステムを開発または展開してはいけません。最も悲観的なシナリオは、非常に強力なAIシステムが作成されるまで楽観的なシナリオのように見える可能性があることに注意する価値があります。悲観的なシナリオを真剣に受け止めるには、システムが安全であるという証拠を評価する際に謙虚さと慎重さが必要です。
楽観的なシナリオにいる場合... Anthropicが行うことのステークスは(幸いにも)はるかに低くなります。なぜなら、壊滅的な安全性の失敗は、いずれにせよ発生する可能性が低いからです。私たちのアラインメントの努力は、高度なAIが真に有益な用途を持つことができるペースを加速し、AIシステムの開発に伴って引き起こされる近期の危害の一部を軽減するのに役立つでしょう。また、壊滅的な安全性の失敗の可能性がほとんどない場合、最大のリスク源の1つとなる可能性が高い高度なAIによってもたらされる潜在的な構造的リスクの一部を政策立案者が対処するのを支援するために、私たちの努力を転換する可能性もあります。
中間的なシナリオにいる場合... Anthropicの主な貢献は、高度なAIシステムによってもたらされるリスクを特定し、強力なAIシステムを安全に訓練する方法を見つけ、広めることになります。私たちは、この安全性技術のポートフォリオ - 以下で詳しく説明します - の少なくとも一部がそのようなシナリオで役立つことを望んでいます。これらのシナリオは、憲法AIのような技術を反復することで多くの限界的な進歩を研究では、AIに関する経験的証拠 - それはほとんどが計算実験作ることができると信じる「中程度に容易なシナリオ」から、機械的解釈可能性に成功することが最良の賭けに見える「中程度に困難なシナリオ」まで幅広く存在する可能性があります。
悲観的なシナリオにいる場合... Anthropicの役割は、AI安全性技術が高度なAIからの深刻または壊滅的な安全性リスクを防ぐことができないという可能な限り多くの証拠を提供し、世界の機関が危険なAIの開発を防ぐために集団的努力を向けるよう警鐘を鳴らすことになります。
hiroya_iizuka.icon こうならないといいね...
「近悲観的」シナリオにいる場合、これは代わりに、AI安全性研究に向けて集団的努力を向け、その間AIの進歩を停止させることを含む可能性があります。悲観的または近悲観的シナリオにいることを示す兆候は突然で、発見が難しい可能性があります。したがって、私たちはそうでないという十分な証拠がない限り、常にそのようなシナリオにまだいる可能性があるという前提で行動すべきです。
賭け金を考えると、私たちの最優先事項の1つは、どのようなシナリオにいるかについてさらに多くの情報を収集し続けることです。私たちが追求している多くの研究方向は、AIシステムをより良く理解し、高度なAIシステムによる権力追求や欺瞞などの懸念される行動を検出するのに役立つ技術を開発することを目的としています。
私たちの目標は本質的に以下を開発することです:
AIシステムをより安全にするためのより良い技術
AIシステムがどれほど安全または危険かを識別するためのより良い方法
楽観的なシナリオでは、(i)はAI開発者が有益なシステムを訓練するのに役立ち、(ii)はそのようなシステムが安全であることを実証します。中間的なシナリオでは、(i)がAIの大惨事を回避する方法になる可能性があり、(ii)は高度なAIによってもたらされるリスクが低いことを確認するために不可欠になります。悲観的なシナリオでは、(i)の失敗がAI安全性が解決不可能であることを示す重要な指標となり、(ii)が他者にこれを説得力のある形で実証することを可能にします。
私たちは、このような「ポートフォリオアプローチ」をAI安全性研究に信じています。上記のリストから単一の可能なシナリオに賭けるのではなく、AI安全性研究が最も大きな影響を与える可能性が高い中間的なシナリオで物事を大幅に改善する可能性のある研究プログラムを開発しようとしています。同時に、AI安全性研究がAIリスクにあまり影響を与えない可能性が低い悲観的なシナリオでは警鐘を鳴らします。また、技術的なAI安全性研究の必要性がそれほど大きくない楽観的なシナリオでも有益な方法でこれを行おうとしています。
AnthropicにおけるAI研究の3つのタイプ
省略
結びの考察
私たちは、人工知能が世界に前例のない影響を与える可能性があり、おそらく今後10年以内にそれが起こる可能性があると信じています。コンピューティングパワーの指数関数的な成長とAI能力の予測可能な改善は、新しいシステムが今日の技術よりもはるかに進歩していることを示唆しています。しかし、これらの強力なシステムが人間の価値観と堅牢にアラインメントされ、壊滅的な失敗のリスクが最小限であることを確信できるようにする方法についての確固たる理解はまだありません。
今日利用可能なシステムが差し迫った懸念をもたらすとは考えていないことを明確にしたいと思います。しかし、はるかに強力なシステムが開発された場合に、高度なAIからのリスクを軽減するための基礎的な作業を今行うことは賢明です。安全なAIシステムの作成が容易であることが判明するかもしれませんが、より楽観的でないシナリオに備えることが重要だと信じています。
Anthropicは、AI安全性に対して経験的に駆動されるアプローチを取っています。現在の主要な活動領域には、AIシステムがどのように学習し、現実世界に一般化するかの理解の向上、AIシステムのスケーラブルな監督とレビューの技術の開発、透明で解釈可能なAIシステムの作成、結果を追求するのではなく安全なプロセスに従うようにAIシステムを訓練すること、AIの危険な故障モードの可能性の分析とその防止方法、AIの社会的影響の評価によるポリシーと研究の指針などが含まれます。AI安全性の問題に複数の角度からアプローチすることで、さまざまな異なるシナリオにわたって成功できる安全性研究の「ポートフォリオ」を開発することを望んでいます。私たちのいるシナリオの種類についてより多くの情報が利用可能になるにつれて、私たちのアプローチとリソース配分が急速に調整されると予想しています。